EMNLP2021|实体关系抽取新SoTA对NER和RE任务进行联合编码

作者：执笔W写下我们的故事 | 来源：互联网 | 2023-07-31 09:14

每天给你送来NLP技术干货！来自：FundanNLPMotivation在实体关系抽取中，前人在编码任务特征上大致上可以划分为两类

每天给你送来NLP技术干货&＃xff01;

来自&＃xff1a;FundanNLP

Motivation

在实体关系抽取中&＃xff0c;前人在编码任务特征上大致上可以划分为两类&＃xff1a;序列编码&＃xff08;Sequential Encoding&＃xff09;和平行编码&＃xff08;Parallel Encoding&＃xff09;。

序列编码一般按先NER再RE的先后顺序对任务特征进行编码&＃xff0c;这种编码方式会使得后编码的特征无法直接影响到先编码的特征&＃xff0c;从而导致不平衡的任务间交互。

平行编码则是使用两个独立的编码器来生成任务特征&＃xff0c;这种编码方式除了共享输入外就再无其他交互方式, 这会导致不充分的任务间交互。

论文链接&＃xff1a;https://arxiv.org/pdf/2108.12202.pdf

代码链接&＃xff1a;https://github.com/Coopercoppers/PFN

主要工作

本文提出了新的编码范式-联合编码&＃xff08;Joint Encoding&＃xff09;&＃xff0c;并基于该范式设计出一种适配多任务学习的编码器 – 分区过滤编码器&＃xff08;Partition Filter Encoder&＃xff09;。

该编码器能够同时编码NER和RE的任务特征来保证充分平衡的任务间交互&＃xff0c;从而有效规避序列编码和平行编码带来的不足。文章的主要贡献如下&＃xff1a;

提出一种基于联合编码的分区过滤网络。
模型在6个数据集上取得了SoTA&＃xff0c;超过了TpLinker、Table-Sequence、PURE等多个联合/流水线抽取SoTA模型。
探讨了RE对NER的作用&＃xff0c;通过辅助实验得出&＃xff1a;RE对NER具有显著的促进作用。该结论佐证了联合抽取的必要性以及其相较于流水线抽取的优越性。

模型结构

模型主要划分为两个模块&＃xff1a;分区过滤编码器&＃xff08;Partition Filter Encoder&＃xff09;和解码单元&＃xff08;NER Unit and RE Unit&＃xff09;。解码部分使用了常见的填表方法&＃xff08;Table Filling&＃xff09;。

编码部分

编码器采用了类似LSTM的自回归形式。对每个时刻&＃xff0c;编码过程被划分成了两步&＃xff1a;分区&＃xff08;Partition&＃xff09;和过滤&＃xff08;Filter&＃xff09;。分区指的是将神经元划分为三个独立区域&＃xff1a;一个共享区&＃xff08;Shared Partition&＃xff09;和两个任务独享区&＃xff08;实体区和关系区&＃xff09;&＃xff0c;过滤则是将这些分区进行组合&＃xff0c;去掉与任务无关的分区。

分区

模型使用了实体门e和关系门r来对神经元进行分区。这里神经元指的是类似LSTM中的cell单元。

首先根据对NER/RE的有用程度&＃xff0c;实体门/关系门会把cell划分成两个区域&＃xff0c;一个与任务相关&＃xff0c;一个与任务无关。如上图所示&＃xff0c;根据NER和RE的划分结果&＃xff0c;我们最后得到了三个分区&＃xff0c;中间的共享区&＃xff08;Shared&＃xff09;表示对NER和RE都有用的信息&＃xff0c;两端的任务独享区表示只与单个任务有关的信息。

实体门e和关系门r的计算采用了cummax激活函数&＃xff0c;输入为当前时刻的输入x_t以及上一时刻的隐状态h_t-1&＃xff1a;

cummax的计算包括两步&＃xff1a;

第一步是对每个神经元进行Softmax()操作&＃xff0c;这一步用来确定分区的割点。
第二步计算每个神经元的累加值&＃xff0c;即cumsum&＃xff0c;得到了近似&＃xff08;0, 0, 1, 1, 1&＃xff09;的二元门&＃xff08;binary gate&＃xff09;。0的部分表示割点之前的神经元&＃xff0c;1的部分表示割点之后的神经元。

为了加深理解&＃xff0c;举个简单的例子。

假设cell单元有5个神经元&＃xff0c;对输入Softmax()后通常会使某个神经元&＃xff08;即割点&＃xff09;的值变得相对较大。假设softmax后值为&＃xff08;0.1, 0.1, 0.6, 0.1, 0.1&＃xff09;&＃xff0c;在这里割点就是第3个神经元。此时对该序列做cumsum后得到的结果是&＃xff08;0.1, 0.2, 0.8, 0.9, 1.0&＃xff09;。这一结果近似可以看做是划分成两个区域的二元门&＃xff08;0, 0, 1, 1, 1&＃xff09;。

有了实体门e和关系门r之后&＃xff0c;三个分区就能够计算出来了&＃xff1a;

这里用一个例子来说明上式的逻辑&＃xff0c;假设e &＃61;&＃xff08;0,1,1&＃xff09;&＃xff0c;r &＃61;&＃xff08;1,1,0&＃xff09;。

公式第1行里对实体门和关系门按元素相乘得到了共享区ρ_s为(0, 1, 0)&＃xff0c;即共享信息来自第2个神经元。

公式第2-3行用实体门或者关系门减去共享区得到了任务独享区ρ_e. ρ_r分别为(0, 0, 1)和(1, 0, 0)&＃xff0c;这说明NER和RE的独占信息分别来自第1&＃xff0c;3个神经元。

其中公式下标后面的ct-1表示分区的对象是t-1时刻的cell单元。

文章里对两类cell单元分别进行了分区操作&＃xff0c;一类是代表历史信息的c_t-1&＃xff0c;另一类是代表当前信息的c_t。最后把两类cell的分区信息加起来&＃xff0c;得到了总的分区信息&＃xff1a;

过滤

过滤阶段需要对三个分区进行组合过滤&＃xff0c;组合过滤的原则是使NER和RE能够平等地获得共享区信息&＃xff0c;同时让NER和RE分别专享实体区和关系区信息&＃xff0c;这样可以在保证均衡交互的同时剔除掉与任务无关的信息。最后组合的信息分别存储在三个记忆单元中&＃xff08;实体记忆µ_e&＃xff0c;关系记忆µ_r以及共享记忆µ_s&＃xff09;&＃xff1a;

最后对记忆单元进行简单的非线性处理即可得到最后需要的任务特征&＃xff1a;

由于模型采用了自回归编码的方式&＃xff0c;最后还需要产生下一时刻的cell state和hidden state&＃xff1a;

另外作者还提出使用句子级别的全局特征来作为解码的补充信息&＃xff1a;

解码部分

模型在解码的时候把NER和RE分成了两个独立的部分。对句子中的每对单词&＃xff0c;作者将词级别的任务特征和句子级别的全局特征进行拼接&＃xff0c;把多分类问题转化成多个二分类问题来进行类别预测&＃xff08;NER里是实体类别&＃xff0c;RE里是关系类别&＃xff09;&＃xff1a;

NER(wi, wj)在NER中分别表示实体的首尾词&＃xff0c;在RE中分别表示Subject实体和Object实体的起始词。损失函数使用的是二分类损失函数BCEloss。

主实验

作者在6个数据集上做了实验&＃xff0c;可以看到模型的表现很好&＃xff0c;在性能上超过了Tplinker、Table-Sequence和PURE等多个SoTA模型。

消融实验

作者对编码器的层数、方向、编码方式、分区细粒度以及解码方式上都做了消融实验&＃xff0c;从结果来看&＃xff0c;新提出的联合编码相较于序列编码和平行编码有着不小的提升。

探讨RE对NER的影响

众所周知&＃xff0c;NER是RE的上游任务&＃xff0c;对RE的具有非常大的促进作用。但是RE是否也会在一定程度上影响NER&＃xff1f;这一影响是否大到非做联合抽取不可的程度&＃xff1f;前人在这一问题上讨论的很少。

此前对这一问题进行过分析的有“A Frustratingly Easy Approach for Entity and Relation Extraction”。这篇论文提出了流水线抽取模型PURE&＃xff0c;并得出RE对NER预测没多大用处的结论。

在本文中&＃xff0c;作者对该结论以及即支撑实验提出了质疑&＃xff0c;并通过实验得出了与PURE截然相反的结论&＃xff1a;RE对NER具有显著的积极影响。

首先作者按照实体是否出现在三元组中将其划分为两类&＃xff1a;in-triple和out-of-triple&＃xff0c;并分别测试两组实体的抽取效果。

结果显示&＃xff0c;NER预测中in-triple实体的F1值要显著高于out-of-triple。这说明预测未出现在三元组中&＃xff08;即不包含RE信息&＃xff09;的实体要更加得困难。

另外作者在NER上使用了鲁棒性测试来评估模型对输入扰动的鲁棒性&＃xff0c;扰动方法用了复旦大学张奇老师组提出的TextFlint。

总体来说联合模型在输入扰动下性能下降的幅度要小于其他不引入RE信息的baseline&＃xff0c;尤其是CrossCategory&＃xff08;该方法将实体随机替换成其他在多语境下可能存在不同实体类别的实体&＃xff0c; 比如同时可作为地名和人名的Washington&＃xff09;。可以看到RE信息的引入让NER预测变得更加鲁棒。

由以上两个实验&＃xff0c;作者得出RE对NER具有积极明显的促进作用。并且作者认为由于PURE采用了有偏的实验设置&＃xff0c;其结论不具备可靠性。
有偏体现在两点&＃xff1a;一是设置联合抽取baseline时对NER和RE使用了Share Encoder&＃xff0c;这种方法会造成任务间的侵蚀作用&＃xff1a;即对其中一个任务有用的信息&＃xff0c;可能对另外一个任务来说是无关甚至有害的。二是采用了out-of-triple类实体占绝大多数比例的ACE05数据集来进行评估&＃xff0c;而out-of-triple实体抽取本身并不需要RE信息。

投稿或交流学习&＃xff0c;备注&＃xff1a;昵称-学校&＃xff08;公司&＃xff09;-方向&＃xff0c;进入DL&NLP交流群。

方向有很多&＃xff1a;机器学习、深度学习&＃xff0c;python&＃xff0c;情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易&＃xff0c;还望给个在看&＃xff01;

推荐阅读

string
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
string
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
bit
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
string
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
replace
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
string
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
string
WinMain 函数详解及示例

本文详细介绍了 WinMain 函数的参数及其用途，并提供了一个具体的示例代码来解析 WinMain 函数的实现。 ... [详细]

蜡笔小新 2024-11-13 12:49:31
default
Halcon之图像梯度、图像边缘、USM锐化

图像梯度、图像边缘、USM锐化图像梯度、图像边缘、USM锐化图像梯度、图像边缘、USM锐化图像卷积：1.模糊2.梯度3.边缘4.锐化1.视频教程：B站、 ... [详细]

蜡笔小新 2024-11-12 21:40:43
go
USACO ORZHDU_4277 DFS + STL + 枚举算法

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=4277。作者：Bob Lee，日期：2012年9月15日。题目描述：给定n个木棍，求可以组成的不同三角形的数量，最多15根木棍。 ... [详细]

蜡笔小新 2024-11-12 00:38:10
js
使用Jsoup解析并遍历HTML文档结构

使用Jsoup解析并遍历HTML文档时，该库能够高效地生成一个清晰、规范的解析树，即使源HTML文档存在格式问题。Jsoup具备强大的容错能力，能够处理多种异常情况，如未闭合的标签等，确保解析结果的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 21:30:03
string
如何使用 `org.opencb.opencga.core.results.VariantQueryResult.getSource()` 方法及其代码示例详解

如何使用 `org.opencb.opencga.core.results.VariantQueryResult.getSource()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 18:48:02
string
2018年湘潭大学程序设计竞赛在牛客网的时间数据分析报告

本报告对2018年湘潭大学程序设计竞赛在牛客网上的时间数据进行了详细分析。通过统计参赛者在各个时间段的活跃情况，揭示了比赛期间的编程频率和时间分布特点。此外，报告还探讨了选手在准备过程中面临的挑战，如保持编程手感、学习逆向工程和PWN技术，以及熟悉Linux环境等。这些发现为未来的竞赛组织和培训提供了 valuable 的参考。 ... [详细]

蜡笔小新 2024-11-11 16:10:24
js
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
bit
深入解析二元Probit模型及其应用

本文详细探讨了二元Probit模型及其在实际应用中的重要性。作为一种广义线性模型，Probit模型主要用于处理二分类问题，与Logistic模型类似，但其假设误差项服从标准正态分布。尽管Probit模型在某些领域应用较少，但在特定情境下仍具有独特优势。文章不仅介绍了模型的基本原理，还通过实例分析展示了其在经济学、社会学等领域的具体应用。 ... [详细]

蜡笔小新 2024-11-11 12:07:01
string
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52

执笔W写下我们的故事

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章